Evitando demostrablemente la sobreoptimización en la Optimización Directa de Preferencias sin conocer la distribución de datos
Evita la sobreoptimización en la optimización directa de preferencias sin distribuciones de datos. Consejos prácticos y estrategias clave para modelos de lenguaje.